import pandas as pd

pd.set_option('display.max_rows', 100)
pd.set_option('display.max_columns', None)

pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 1000)
#
# df_data = pd.read_excel("crawl_results_878.xlsx")
df_data = pd.read_excel("crawl_results_www.jingxiu.gov.cn_1957.xlsx")
# df_data = df_data[df_data['层级'].apply(lambda x: x == 2)]
print(len(df_data))
print(df_data.head(10))
link_set = set(df_data['链接'].tolist())
print(link_set)
print(len(link_set))

df_data2 = pd.read_csv("保定市竞秀区人民政府.csv")
print(df_data2)
# df_data2 = df_data2[df_data2['层级'].apply(lambda x:x == '二级')]
link_set2 = set(df_data2['url'].tolist())
print(link_set2)
print(len(link_set2))

print("两个爬取的公共链接数:")
print(len(link_set & link_set2))
# print("他有我没有的：")
print(len(link_set2 - link_set))
# print("我有他没有的：")
# print(len(link_set - link_set2))